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Обнаружение и выделение звука [р] 
в речевом сигнале 


Статья посвящена описанию двух новых алгоритмов обнаружения и выделения в речевом сигнале 
русского и казахского звука [р]. Оба алгоритма нацелены на выделение в сигнале низкоамплитудных 
участков, соответствующих моментам удара языка о небо. Один алгоритм оперирует численным аналогом 
полной вариации, другой — использует последовательные сглаживания и количество точек постоянства. 


Целью работы является обнаружение в речевом сигнале фрагментов, соответст- 
вующих произнесенному звуку [р], и определение границ этих фрагментов. Идеология 
и методы настоящей работы лежат в сфере подходов к пофонемному распознаванию 
речи, подробное изложение которых содержится в книге [1]. 

1. Звук [р] — твердый, переднеязычный, сонорный, дрожащий согласный звук, 
очень распространенный как в русской, так и в казахской речи. В словах может встре- 
чаться в разных позициях, в сочетаниях с различными гласными и согласными звука- 
ми. При произнесении этого звука кончик языка вибрирует, под напором выдыхаемого 
воздуха, ударяя по небу, вследствие чего звук [р] получается дрожащим, раскатистым. 

При проведении процедуры сегментации оцифрованного речевого сигнала, описан- 
ной в работе [2], звук [р], как правило, попадает в класс голосовых согласных. Однако 
особенности этого звука позволяют распознавать его в независимости от фонетичес- 
кого окружения, без необходимости предварительной сегментации. 

Речевой сигнал, оцифрованный звукозаписывающим устройством, представляет 
собой массив отсчетов (сэмплов) х;. Если взглянуть на речевой сигнал в амплитудно- 
временном представлении, сразу заметно, что на участках, соответствующих звуку [р], 
амплитуда сигнала резко падает там, где [р] ударяет по небу (рис. 1). На этих корот- 
ких участках падает и величина, называемая вариацией: 


п-1 
Г = у" Хх; 
ри 


— численный аналог полной вариации функции для дискретного случая. 
Используем этот факт для обнаружения [р] в сигнале. 
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Рисунок 1 — Визуализация слова «Арарат». Стрелками отмечены участки 
с кратковременным резким падением амплитуды, соответствующие звуку [р] 
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Разобьем сигнал на последовательные окна по 128 отсчетов. В каждом окне вы- 
числим вариацию (1), запишем полученные числа в массив. Затем поищем в этом мас- 
сиве такие элементы УК, что: 

1) числовое значение элемента Ук попадает в заданный интервал: а < Ук< Б; 

2) максимальный из трех предшествующих элементов превышает данный элемент 
более, чем в с раз: тах(Ука, Ук.2, Укз) > с* Ук 

3) максимальный из трех последующих элементов также превышает данный эле- 
мент более, чем в с раз: тах(Ук+ни, Ук+2, Укнз) > с* Ук; 

4) сумма максимального из трех предшествующих элементов и максимального 
из трех последующих элементов превышает данный элемент более, чем в 4 раз (при- 
чем (> 2*с): тах(Ук-л, Ук-2, Ук-з) + тах(Ук-ь, Ук+2, Укз) > а* Ук а> 2*с. 

Если в массиве найдутся элементы, отвечающие условиям (1 -— 4), то будем счи- 
тать, что они соответствуют участкам с вибрирующим [р]. 

Обратим внимание на тот факт, что при произнесении звука [р] кончик языка 
может ударить по небу не один раз, а несколько (например, казахское слово «бар» мы 
можем произнести раскатисто — «бар-р-р»). Тогда на графике речевого сигнала будет 
зафиксировано несколько кратковременных падений амплитуды, следующих друг за 
другом (рис. 2). Однако все они соответствуют одному и тому же звуку [р]. 
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Рисунок 2 — Визуализация слова «бар-р-р». Стрелками отмечены участки 
с кратковременным резким падением амплитуды, соответствующие звуку [р] 


В связи с этим введем ограничение длины для расстояния между соседними [р]: 

5) если в массиве присутствуют 2 элемента Ур и У, отвечающих описанным ус- 
ловиям, то будем считать, что они соответствуют двум разным звукам [р], только в слу- 
чае, когда они отстоят друг от друга более, чем на и позиций: р — 4 > и. В противном 
случае они соответствуют одному и тому же звуку [р]. 

Участок сигнала, содержащий элементы массива, описываемые условиями (1 — 5), 
пометим на графике сигнала меткой «К». 

Тестирование описанного алгоритма выявило, что иногда на стыке голосового 
согласного и гласного звуков (например, в слове «бал» на стыке [6] и [а]) вариация 
также может кратковременно упасть относительно соседних участков, что приводит 
к возникновению лишней метки «В». Однако для голосовых согласных вариация в це- 
лом меньше, чем для [р]. Поэтому, чтобы избежать лишних меток в подобных случаях, 
добавим еще один (не относительный, а абсолютный) порог для «соседей» элемента Ук: 

6) максимальный из трех предшествующих элементов превышает порог е: тах(Ук-1, 
Уьк.2, Укз)>е; 

7) максимальный из трех последующих элементов также превышает порог е: 
тах(Укаи, Ук+2, Укнз) > е. 

Совокупность условий (1 — 7) позволяет нашей системе уверенно обнаруживать 
твердый звук [р] в разных позициях: в начале, в середине и в конце слова, в сочета- 
ниях с гласными и согласными (рис. За, 36, Зв). 

Значения порогов для нашей системы: а = 8, Б = 50, с=2.5, 4= 6.5, е = 70, п=3. 
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Рисунок За) — Сегментация казахского слова «рас». 

Метки: К - звук [р], \! — гласный звук, Е — глухой фрикативный согласный звук 
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Рисунок 36) — Сегментация казахского слова «кара». Метки: К. -— казахский звук [к], 
УМ! - гласный звук, В -— звук [р], С — голосовая вставка в конце слова 
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Рисунок Зв) — Сегментация казахского слова «бар». 
Метки: С — голосовой согласный звук, \\ — гласный звук, К — звук [р] 


2. Пусть имеется одномерный числовой массив и задан некоторый порог р. По- 
строим символьную последовательность 5, поставив в соответствие членам массива, 
которые больше р, символ «В» (выше порога), остальным символ «Н» (ниже порога). 
Будем называть эту процедуру, применяемую к числовому массиву, первичной «В-Н»- 
обработкой с порогом р. 

Назовем сглаживанием сигнала 


Я», У2.... 
обработку его 3-точечным скользящим фильтром 
ет РО 
УЕ = 3 


Изложим еще один алгоритм детектирования и выделения звука «р». Он исполь- 
зует сглаживание и число точек постоянства, то есть таких моментов времени, что в 
следующий момент значение сигнала не меняется. 
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На рис. 4 приведено амплитудно-временное представление сигнала, соответствую- 
щего слову «сорока». 
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Рисунок 4— Визуализация амплитудно-временного представления слова «сорока» 


Рисунки 5 — 7 представляют результаты 10-кратного, 70-кратного и 100-кратного сгла- 
живания исходного сигнала. 
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Рисунок 5 — Визуализация амплитудно-временного представления слова 
«сорока» после 10-кратного сглаживания 
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Рисунок 6 — Визуализация амплитудно-временного представления слова 
«сорока» после 70-кратного сглаживания 
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Рисунок 7 — Визуализация амплитудно-временного представления слова 
«сорока» после 100-кратного сглаживания 


Из этих рисунков видно, что в случае достаточно большого числа сглаживаний 
на участках, соответствующих ударам языка по небу («р»-удар), число точек постоян- 
ства больше числа точек непостоянства. При этом длины этих участков относительно 
малы. Это позволяет, сделав первичную В-Н-обработку с порогом 0, выделять «р»-уда- 
ры по этим признакам как достаточно короткие Н-участки. Однако при этом в число 
выделенных могут попасть участки других голосовых (и глухих) звуков. Но другие 
звуки, в отличие от [р], являются достаточно однородными. Поэтому образовавшиеся 
там Н-участки быстро расширяются с увеличением числа сглаживаний. В то же вре- 
мя выделенные участки «р»-ударов остаются короткими при некотором увеличении 
числа сглаживаний. Учет этого позволит избавиться от выделенных участков, не относя- 
щихся к «р». Итак, вопрос должен решаться, если мы сумеем формализовать «историю» 
того, что получается при некотором числе последовательных сглаживаний сигнала. 
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Суммируя сказанное, мы приходим к алгоритму, который реализуется с помо- 
щью двумерного массива, иллюстрируемого таблицами на рис. 9 и 10. 
Пусть для примера анализируется сигнал рис. 8, отвечающий слову «пара». 
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Рисунок 8— Визуализация амплитудно-временного представления слова «Пара», 
«р»-удары выделены по описываемому алгоритму 
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Сигнал разбивается на неперекрывающиеся окна по 256 отсчетов. На каждом из 
них вычисляется разность между количеством точек непостоянства и количеством то- 
чек постоянства. Полученный числовой массив подвергается первичной «В-Н»-обра- 
ботке с порогом 0 (при необходимости этот порог может быть заменен другим). 

Столбцы таблицы на рис. 9 отражают результаты такой обработки сигнала после 
определенного числа сглаживаний. Первый вертикальный столбец — после 10-кратно- 
го сглаживания сигнала. Второй -— после 20-кратного сглаживания и так далее. Всего 
здесь выполнено 15 последовательных 10-кратных сглаживаний. 
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Рисунок 9 — Двумерный массив символов, полученный вышеописанным образом 
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Таблица на рис. 10 возникает в результате выделения в столбцах предыдущей 
таблицы последовательностей «Н», длины которых не превосходят 2. В них символ «Н» 
заменяется значком «$» (в нашем примере более длинных Н-последовательностей не 
оказалось). Наконец, анализируя строки полученной таблицы, выделяем те из них, где 
количество рядом стоящих «$» не меньше 5. Этим строкам соответствуют участки «р»- 
ударов. 
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Рисунок 10 — Окончательная таблица, используемая для детектирования «р»-ударов 


Мы ограничиваемся таким наглядным описанием алгоритма и позволим себе не 
приводить его формального описания. В общем случае алгоритм содержит 4 парамет- 
ра: число 10-кратных сглаживаний, порог первичной «В-Н»-обработки, максимальная 
допустимая длина Н-отрезка в столбце, минимальное количество идущих подряд сим- 
волов $ в строке. 

Так же, как и ранее изложенный, только что описанный алгоритм, успешно нахо- 
дит твердое «р» в позициях начала, середины и конца слова в любом фонетическом 
окружении. Он справляется также с мягким [р]. 

Пример: 
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Рисунок п - Визуализация амплитудно-временного представления слова «море» 
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Начало и конец участка «р»-удара отмечаются вертикальными метками. Изложен- 
ное относится к проблеме обнаружения (детектирования) «р» в речевом сигнале. Наши 
подходы к пофонемному распознаванию основаны на предварительной сегментации — 
разбиении речевого сигнала на участки гласных (обозначение сегмента \\), голосовых 
согласных (обозначение сегмента С), глухих фрикативных звуков (обозначение сегмен- 
та Е) и аффрикат, глухих взрывных (паузообразных) звуков (обозначение сегмента Р). 
Об алгоритмах такой сегментации (будем называть ее основной) см. работу [2]. Теперь 
мы хотим добавить в число выделяемых отрезков отрезки «р». 

После завершения основной сегментации в нее добавляется информация об «р» 
по следующим правилам: 

— если хотя бы одна из полученных ранее меток для «р» попадает в сегмент «С», 
то весь этот сегмент помечается как «р»; 

— если метка для [р] попадает в сегмент «\\», то участок от этой метки до на- 
чала следующей фонемы помечается как «р»; 

— если метки для [р] попадают в соседние сегменты «\/» и «С», то участок от 
первой метки [р] в сегменте «\!» до конца сегмента «С» помечается как «р». 
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М.Х. Карабалаева, А.В. Нщенко, В.Ю. Шелепов 

Виявлення 1 вид1лення звуку [р] у мовному сигнал! 

Стаття присвячена опису двох нових алгоритмив виявлення 1 видллення у мовному сигнал! росйського 
та казахського звуку [р]. Обидва алгоритми нашлен! на видлення в сигнал! низькоампттудних длянок, 
як! вдповдають моментам удару язика об шдне@ння. Один алгоритм оперуе чисельним аналогом повно! 
вартаци, 1нший — використовуе послдовн! згладжування 1 юльюсть точок сталостт. 


М.Н. КагаБайауета, А.Т. Мсепко, И.Ли. 5пеероу 

Оеесйоп апа Г5ойайоп о? пе Рвопете [г] ш Фе Зреесв З1опа1 

ТЬ$ рарег 4езстез мо пе\м а]еогитлз Юг деесНоп ап 150]айоп оЁ фе рБопеше [г] ш фе Вияз$1ап апа 
КатаКЬ зреесй $1епа|. Во а|еогипл$ апп 1ю деесё а 1оу’-атрШаде з1епа| Нгатлез сотезропате ю фе тотеп 
о# пцегасйоп Бебмееп Ше 'юпгие ап4 Фе ВагА ра1жще. Опе а1гог ит орегайез \у1 а питепса| апа!ос оЁ фе 
К уапайоп, фе офег изез зедаепйа] зтоо 11$ ап Фе питбег оРропи6 о сопзапсу. 


Статья поступила в редакцию 03.03.2011. 
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